AI024
ROCm và HIP: Hướng dẫn chi tiết 10 chương
Kỹ thuật hiệu suất trên GPU AMD
Mục tiêu học tập
- Xác định các điểm nghẽn kiến trúc bằng cách sử dụng Omniperf và ROCProfiler.
- Tối ưu hóa mẫu truy cập bộ nhớ để tối đa hóa băng thông HBM2e/HBM3.
- Hiểu rõ về lập lịch sóng (wavefront) và mức độ chiếm dụng trên đơn vị tính toán CDNA.
- Triển khai các tối ưu ở cấp độ lệnh cho các lõi vector và ma trận.